17款AI大模型对决8款棋牌游戏O3-mini锋芒毕露！_公司新闻_u赢电竞官网入口

近来，由香港大学、剑桥大学和北京大学的研讨团队推出的GameBoT评测基准引发广泛重视，标志着AI范畴一场新鲜的竞技应战。该项目经过让17款干流大言语模型（LLM）在8款棋牌游戏中进行对立，旨在评测AI的推理才能和决议计划进程。

与传统的LLM基准测验不同，GameBoT经过引进游戏对立的方法，有用避开了模型“背答案”的问题。这种评测不只重视终究的输赢成果，还深入剖析了每个模型在游戏中所做出的中心决议计划进程。这一立异方法可供给更细粒度和客观的评价。

在GameBoT的首轮评测中，17款AI模型如O3-mini、DeepSeek R1、GPT-4o等同台竞技。经过20轮的对决后，O3-mini体现优异，以F1得分0.873勇夺冠军，展示了其在推理进程中的超卓才能。相对而言，DeepSeek R1的中心进程得分却令人意外，仅为0.176，虽然它在终究决议计划上体现尚可，但其推理进程相对繁琐，显示出可控性缺乏。

此次评测采纳淘汰制，保证较为全面的模型体现剖析。其间，O3-mini在不同游戏中体现平衡，可以有用应对杂乱局势，而DeepSeek R1则在某些场景下生成了过多不必要的考虑进程，影响了全体体现。

这种经过游戏进行LLM才能评价的方法，不只能防止传统基准测验的局限性，还可为未来的AI研讨供给新的思路和方法论。GameBoT的成功推出，意味着AI在杂乱决议计划环境中的使用潜力正在慢慢地被发掘。未来，跟着新模型的不断涌现，这一评测规范有望逐步齐备，为AI的开展铺平道路。回来搜狐，检查更加多